查看原文
其他

上帝不掷骰子?“商汤AI大装置”想试试

关注前沿科技 商汤科技SenseTime 2023-04-08

编者按过去十年,每年最新的网络、最好的技术对于算力的需求,几乎呈数量级地增长。长尾应用带来的价值需求巨大,而且占据的核心资源不亚于头部应用。人工智能技术从原来的单一方向、单一路线,逐渐向大规模参数的通用技术演变。


当整个技术范式产生变化了之后,必然会出现新一波的人工智能底层基础设施——SenseCore商汤AI大装置诞生于此,致力于如大科学装置粒子对撞机那般,“撞”出一个新的起点,实现跃迁式创新。


本文转载自量子位(公众号ID:QbitAI)



对撞机,发现新物理粒子的方法和装置。


众所周知的高能物理基础设施,人类基础物理领域研究的集大成成果。


现在,商汤科技也搞了一个,同样是多年产学研积蓄后的成果转换,是最新技术成果的集大成体现,是一整套完整的AI基础设施。


取名SenseCore商汤AI大装置

商汤CEO徐立说,这是商汤长线核心竞争力的标志、公司持续经营和更大规模跃迁的护城河,以及推动AI时代生产要素降低的关键一步。

实际上,企业家一面的徐立对此还显得克制,当他科学家的那一面流露,会激动得语速飞快:


靠人脑的方式可能永远赶不上宇宙膨胀的速度,如果要真正解开宇宙真理,输入的依据就不能单靠此时此地此身的人类有限认知,甚至不必追求当下的过程可解释,可以试着用更大的数据,更强的算力,或许还会撞出更多预期之外的结果。


所以商汤的AI大装置,你可以理解为GPT-3、AlphaFold路径上的更大规模落地,是大数据、大模型和超强算力的三位一体实践,也是input到output之间沿着“大致正确方向”的大力出奇迹。


商汤AI大装置如何组成?


在上海临港新片区,一座宛如芯片的建筑群将在今年年底投入使用。

这是商汤全新的AI算力中心(AIDC),计算峰值速度将达到3740 Petaflops(1 petaflop等于每秒1千万亿次浮点运算)——作为参照,OpenAI的千亿参数模型GPT-3完整训练一次需要3.14E23次浮点运算,而商汤临港AIDC的算力仅在一天内即可完成。

毫无疑问,商汤的这个全新AIDC,目标就是为更大规模参数模型的训练而来。


但在商汤AI大装置中,AIDC不到1/3又1/3。

商汤AI大装置SenseCore的全貌,包含了三层:

  • 算力层(AI芯片及处理卡+AIDC+AI传感器)
  • 平台层(模型生产+训练平台+数据平台)
  • 算法层(算法工具箱+开源框架)

三位一体,以基础设施方式输出模型,把AI能力输出到企业服务、城市管理和个人生活等三大落地方向中。

区别于“AI模型”小作坊式的打造,AI大装置更像流水线工厂,可以实现不同场景的算法模型的底层抽象,以模块化平台套件打造通用型服务平台。

特别是针对AI落地中更长尾的客户和场景,能够在组合不同算法套件的基础上完成新场景的定制,以低边际成本实现对新场景的规模化覆盖。

并且商汤基于AI平台基础设施的系统协同性,可以以半自动化、自适应的方式,就能实现批量的算法模型生产和迭代升级。


为什么商汤要搞AI大装置?


商汤CEO徐立说,本质是让AI落地摆脱人力密集的状态。

他认为AI之所以人力密集,是因为生产效率不高,而生产效率提升的关键,是生产要素的成本能足够低。

在AI落地初期阶段,项目定制是行业最普遍的方式,比如做一个手机检测的算法,需要上百人的团队,但换一种场景的应用模型,又得上百人进来……

好比不同的场景里盖楼,堆人是解决问题常用的方法。

但如果按照上述项目包工的方式搞,AI落地就会显得天方夜谭。

商汤的模式不是秘密:“商汤驱动,赋能百业”,用“1(基础研究)+1(产品及解决方案)+X(行业)”的方式展开各行各业的落地。

据官方数据,创办6年来,商汤集结起一支2000人规模的研发团队,推出了13000多个技术模型,以及17000多个商业模型。

所以规模化多场景不同领域落地的过程中,就提出了通用模型的要求。

只是问题也随之而来,模型越通用,训练数据就越大,模型参数也越大,对算力的要求也就越高。



在GPT-3一炮打响之前,对于这种大规模参数的通用模型,业内外都存在质疑。


因为之前的共识是:越厉害的算法,参数和算力可以更少,提升模型精度才是正道。


而且这种“精妙”著称的算法方向,意味着模型对于运算和执行的精准部署,就像数学解题中,严丝合缝地过程推导,最后精准给出结果。

所需的“算力”,理应越少越好。

要来一个暴力解题的方式:吃最多数据,一通暴力计算,最后给出结果——即便是正确答案,也不被推崇。

商汤起步伊始,为手机、互联网公司供应AI方案,走的就是精妙模型的路线。

但随着规模化扩张,开始进入To B行业和城市业务领域后,精妙技术模型在行业长尾需求和应用中的“短板”也就暴露出来。

比如在业务落地中,优先选择的自然是流量大、显示度高、高频,投入产出比高的头部应用。于是大家争夺的就是像地铁刷脸通行这样的应用。

而城市里防火、防水等应用,频次低,需要累积和投入的资源又一点不比头部应用少,虽然有刚需,但处于长尾端,不受青睐。

最终,从需求方角度,如果不能在一个场景里解决包括长尾在内的问题,切换新方案、并为此买单的意愿就会降低。

所以从AI落地的商业化和价值闭环出发,从需求端推动来看,“眉毛头发一把抓”,大参数模型也就变得自然而然。



此外,AI技术的演进路线上,反共识的趋势从更多维度显现。

从AlexNet以来看过去十年AI模型的发展,每年最新的算法网络、最好的技术,对于算力的需求,几乎是呈数量级的增长,每年都大概会有十倍的算力需求增长。

徐立躬身其间,对这种趋势的感知也非常明显。

他认为造成这种趋势的原因其实很简单:表达越来越丰富,模型越来越通用,参数也就越来越多,算力要求也就越高。

行业整体而言,最领先的算法对于算力的需求翻了近百万倍。

其次,技术本身的演进。

原先的技术路线朝着单一方向、单一路线前进。通用AI看起来可望不可及,然而过去几年在通用问题的刚需驱动下,一些通用语言模型、通用视觉模型,甚至通用多模态模型开始取得突破,曾经不work的正在变成可能。

商汤CEO坦承,通用模型的打造确实花费了大力气,但好处是在长尾问题解决上效果显著。

伴随而来的挑战,是对新一波以算力为核心的AI基础设施的渴求。

“就好像在物理探索中,如果没有粒子对撞机,很多核心工作没法展开。”



徐立强调,商汤在AI规模化落地的大潮里,必须到了解决通用模型挑战、必须有集中化大规模算力的时候。

他回溯称,2016年、2017年开始,商汤就开始了大参数模型的挑战,SenseNet被做到了1000多层。

随着模型网络越深、参数越大,算力的问题变得突出。

于是2018年开始,商汤开始更加严肃地审视芯片、硬件,并在自建算力中心的基础上,完成了大装置的“原型机”打造。

其后,投资56亿的AIDC智算中心开工,2021年底交付。

当然,过程中还发生了两件AI领域的最大新突破,给商汤上下吃下定心丸。

一件发生在2019年,OpenAI开始大参数模型打造,并在2020年以GPT-3轰动全球。

另一件则是DeepMind的AlphaFold 2

在徐立看来,两大不同方向的进展,背后其实有同一个核心路径

输出方向大致可确定,输入更大的数据,“撞”出结果。

而商汤的AI大装置,不正是这种核心路径的实践机器、基础设施,AI领域的粒子对撞机吗?



AI大装置有什么用?


自然是可以打造大参数模型

首先可以解决AI落地中的长尾问题

比如在城市的日常治理中,把“城管”的工作场景,实现全AI流程覆盖。

无论是暴露垃圾的问题,共享单车乱堆乱放的问题,还是疫情、火灾、汛情、人群拥挤踩踏、危化品泄露……等等公共场景中的各类问题,不管高频还是低频,都能实现一站式解决。

从发现、报警、执行到结案,全流程都可以实现AI化,用人机交互的方式实现更加高效的城市治理。

而且这不是设想,是商汤用AI大装置原型机,在上海一网统管项目中落地的现实。

其次,大参数模型的打造,还是批量打造的那种。

按商业场景分,大的如城市、汽车、工业,小的像螺丝螺帽、冰箱内物品识别……

按技术场景分,视觉领域、语言领域、自动驾驶领域、医疗领域、制药领域……

每一个领域,是不是都可以足够多的数据输入,然后用大装置对撞生成结果?

比如在蛋白质结构预测方向,之前即便用AI的方法,也需要既有非常懂生物的专家,还得非常懂AI的专家协作……双方精心设计流程,精心准备输入数据,最后才有可能得到正确的结果?

大装置会有什么不同?

知道大致正确的方向和目标,就是预测蛋白质结构,但不用精心准备输入数据和流程,甚至可以群策群力,把所有可能相关的数据都输入,最后“大装置”穷尽所有可能性,同样解出正确的结果。

所以沿着这个层面展开,AI大装置意味着落地门槛的降低。

从AI展开行业落地那一天开始,主导权到底是归属AI博士们,还是传统行业老兵的话题,讨论从未有过间断,也从未有过共识。

最具参考的一种答案是既要也要,强调融合共生。

然而如果需要融合,那落地的规模和速度自然就会大受局限,毕竟懂AI、掌握AI能力的人,相比传统行业人才,实在九牛一毛。

而作为基础设施,AI大装置在本质路径上,把AI能力变成了一个输入→输出的机器和工具。

运用这个工具的,可以来自任何行业和领域。

只要有数据思维,定义清楚目标方向,懂得找可能的数据,然后大装置就跟“相机”、“电脑”没有本质不同,都是工具。



所以徐立说,这就是为什么商汤把AI教育作为重要业务组成的原因。

“现在的教育告诉年轻人,需要每一步严格推导产生正确结果才能给分,但未来可能也有一种得出正确结果的方法,不需要你掌握推导过程。”

用好你需要的数据,知道如何操作和使用,然后把数据放入“装置”,一样能解题。

这也是为什么会有一种观点认为:下一个柯洁李世石一样的围棋高手,不一定要学围棋。



实际上,这种思维下,教育方法确实值得被重新审视。

毕竟现如今我们称赞的“计算天才”,不是口算、心算最厉害的那类人,而是最懂得如何利用计算机工具的人。

当然,如果沿着“AI大装置”的思路,扩展到更宏观的“认识世界”,人类对于规律的发现和认知,是否也会被刷新?

人类对于世界的认识和改造,究竟是一种怎样的模式?

亚里士多德提倡演绎,这是一种强调因果的强推导,是一种线性的演进和发展。

但另一种模式,牛顿的时代、爱因斯坦的时代,展现的却是跃迁式进步。

他们带来的基础理论突破,当时甚至只是一种“假设”,是在其后一代甚至几代天才归因中,才完成过程论证。

只是历史车轮相似的是,每一次基础理论的突破,都带来一波更有力量的发明创造和更高级的文明。

徐立把这种天才推动的文明跃迁,笑称为“上帝拍脑袋”。

不过更令他着迷的是,接下来是不是可以由大装置来拍?


回顾过去,人类的科学探索都是基于已知认知推未知,毫无疑问就会受限于“已知认知”,更何况人类历史上不少重要的发明和发现,还是“无心插柳”的结果。

但AI大装置提供的新范式,提供了另一种路径:

探索未知,可以不依赖于人类已经理解的输入来作为输入,可以尝试把更大更多的数据放进来,搞不好就能找出更趋近本质的规律。

而AI最终极的工具能力,不正是帮助人类发现、找出更多,更终极的规律和真理吗?


刷新商汤


最后,在AI大装置浮出水面之际,也是时候重新审视商汤。

商汤是一家什么样的公司?

创办6年来,它备受瞩目,但又面目“模糊”。

商汤时常被谈论它的规模增速和融资估值,也始终被热议“AI赋能百业”的可能性和可行性。



更因为其落地领域广泛,技术和产品不直接To C,又容易在舆论认知中被盲人摸象。

但现如今,最新集大成成果AI大装置建立完成,商汤的归去来都得到了最好的连点成线,商汤的核心和边界、商汤的护城河、商汤从技术到商业的可持续,以及商汤将会带来的AI变革,都能在AI大装置得到完整解答。

在AI大装置的思路之下,商汤把聚集的AI博士之力,架构成了不需要AI博士才能使用的AI工具,并且可以在各个领域都实现输出和赋能。

就像电被发现后,发电机和发电厂所承担的角色一样。

徐立透露,2018年开始大胆设想时,这种发展路线甚至是反共识的,但商汤内部还是顶住压力,做重做深,碰硬件碰底层,然后一搞就是3年。

这有点像黎明前的登山,知道在向上走,却不知道是否是登顶的正确道路。

好在OpenAI的GPT-3、DeepMind的AlphaFold,以及越来越多业内巨头玩家拿出的超大参数模型,不同维度验证了这确实是一条通向未来的路。

徐立还透露,按照内部规划,硬件成本投入56亿起的AI大装置,在开起运行的2年后就能回本,到2025年就会进入盈利轨道。

这是商汤面向未来的长线核心竞争力,而建立这种长线竞争力的时间周期,则构成壁垒和护城河。

更重要的是,AI大装置启动,AI赋能的门槛进一步降低,整个数字化和智能化的进程,就会进一步被加速。

商汤当前的北京办公室所在地,理想国际大厦,是上一代原创技术公司从技术创新到商业创新的“福地”。

徐立也喜欢用搜索引擎来类比“AI大装置”会给商汤、给AI行业带来的变革。

他认为今天互联网的繁荣,是因为搜索引擎成功地把信息——高频的、低频的、高价值的、长尾的,在虚拟空间实现了链接。

而现实世界,始终缺少一样的“搜索引擎”。

因为现实世界中很多东西还无法结构化的、可解析。但AI大装置如果成功,就能加速这种真实世界的结构化、数字化。

顺理成章,互联网发展中两大核心技术——搜索和推荐,也就能在现实世界得到复刻和应用。

并且相比互联网经济创造的价值,人类更大一部分的经济活动和创造,原本就在线下。



所以徐立坚信,AI正在进入下一个时间点,一个从技术创新周期转入商业创新周期的时间点。

“搜索引擎起来的时候,有围绕搜索引擎创业的生态;视频平台起来的时候,有围绕视频平台展开的商业生态。”

这位商汤联合创始人说,很多人问他,AI创业是不是过时了?

他的回答是:

恰恰是正当其时的时候。


  相关阅读,戳这里 


《投资56亿元,商汤科技巨资打造AI时代的新型算力中心》


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存